Model Selection

Multimodal image-text parsing

# Multimodal image-text parsing

Pix2struct Widget Captioning Large

Pix2Struct is an image encoder-text decoder model designed for visual language understanding, supporting tasks such as image captioning and visual question answering.

Transformers Supports Multiple Languages

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase